Видео с ютуба Swe-Bench Pro
SWE-Bench is getting replaced???
За пределами SWE-Bench Pro — что дальше будут делать агенты?
Оценка агентов на SWE-Bench
Цепочка мыслей | Представляем SWE-Bench Pro
Как интерпретировать новые результаты SWE-Bench для GLM-5.1
SWE Bench Verified - AI Benchmark
SWE-rebench v1: Как создать хороший SWE бенчмарк? Рассказывает Ибрагим Бадертдинов.
The End of SWE-Bench Verified — Mia Glaese & Olivia Watkins, OpenAI Frontier Evals
GLM-5.1 Beat GPT-5.4 on SWE-Bench Pro — Did China Just Win the Coding War?
What is Swe Bench Pro?
Что такое SWE Bench?
SWE-BENCH: CAN LANGUAGE MODELS RESOLVE REAL-WORLD GITHUB ISSUES?
SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?
Verdent — лучший AI для кода? 1 место SWE Benchmark + честный тест
What do AI Benchmarks Actually Mean?! A Fast Breakdown (MMLU, SWE-bench, & More Explained)
[State of Code Evals] After SWE-bench, Code Clash & SOTA Coding Benchmarks recap — John Yang
SWE Bench Pro:AI编程的现实考验
SWE Bench Contamination
SWE-Bench authors reflect on the state of LLM agents at Neurips 2024